智能晚报|字节发布文生视频模型;智谱像素级对标OpenAI;Vision Pro已上架150部3D电影…
撰文:张司钰、杨秋秋、王杰夫
编辑:王杰夫
Key Points
微软Copilot专业版定价20美元,能让你在Word里用上AI;
智谱发布GLM-4、GLMs与GLM Store,全面对标OpenAI;
抖音电商2023年GMV增长80%,逼近京东;
字节发布文生视频模型;
新思科技以350亿美元收购软件公司Ansys;
150部沉浸式3D电影已登录Vision Pro;
MiniMax上线MoE大语言模型;
沃达丰与微软合作开发AI产品与服务;
苹果被要求开放欧盟区App Store侧载功能;
Google广告销售部门裁员数百人;
马斯克寻求对特斯拉25%的控制权。
微软Copilot专业版定价20美元,能让你在Word里用上AI
1月15日,微软终于发布了面向个人用户的Copilot Pro专业版,定价为每月20美元。在此之前,只有企业客户可以在Microsoft 365(原「Office 365」,包括Word、Excel、PowerPoint、Outlook、Teams等办公软件)中使用Copilot功能,定价为每月30美元。
Copilot为微软旗下的生成式AI应用,由GPT-4支持,既有植入微软一系列既有产品的插件版,也有类似ChatGPT的独立应用。
相较于免费的Copilot,付费的Copilot Pro提供了哪些额外服务?
Copilot Pro支持更快的AI图像创建,并允许Microsoft 365个人或家庭订阅用户在Word、Excel、PowerPoint、Outlook和OneNote中访问Copilot。价格是每月20美元。订阅Copilot Pro的用户可以获得:
AI接入Office全家桶:用户可以在办公软件Word、Excel、Outlook中直接访问Copilot功能;
优先访问最新模型:Copilot Pro付费用户可以访问GPT-4和GPT-4 Turbo这两个最先进的模型,后者支持128K的上下文窗口。免费用户可以在Copilot手机应用上体验GPT-4模型,不过微软承诺Copilot Pro用户在需求高峰时段拥有优先访问权。
更多的AI图像生成额度:Copilot免费用户每天可以用Copilot生成15张图片,而Copilot Pro用户的额度提升到了每天100张。
支持定制Copilot GPT:即将推出的新功能Copilot GPT Builder允许用户根据特定主题定制自己的Copilot GPT。这个功能很明显在对标ChatGPT的GPTs。目前还不清楚未来GPTs与Copilot GPT Builder是否会相互打通。
微软还降低了企业客户使用Copilot的门槛
在推出面向个人用户的Copilot Pro的同时,微软还放宽了企业客户使用Copilot的要求。一方面微软取消了至少需要购买300个席位的限制,企业客户现在可以想买多少个Copilot就买多少个;另一方面,企业客户现在可以通过微软的合作伙伴购买Copilot,而不必直接从微软这里购买。
参考链接
https://blogs.microsoft.com/blog/2024/01/15/bringing-the-full-power-of-copilot-to-more-people-and-businesses/
智谱发布GLM-4、GLMs与GLM Store,全面对标OpenAI
1月16日,智谱AI在首届技术开放日正式发布新的基础大模型GLM-4、ALL Tools工具集、多模态大模型CogVLM3、代码大模型CodeGeeX3,并推出了可以定制模型的GLMs和GLM Store。
GLM-4具体能力如何?
GLM-4支持128K的上下文窗口长度,单次提示词可以处理的文本达到300页,这个长度与GPT-4 Turbo一致,且同样可以处理Excel、PDF、PPT等格式的文件。
智谱AI称,在「大海捞针」(needle test)测试中,128K文本长度内GLM-4模型的精度召回几乎达到100%,这意味着模型可以更好地理解较长文本的内容,很少失焦。
在翻译、语言理解、逻辑推理等测试中,GLM-4的表现接近GPT-4的水平;不过在偏人类常识理解的HellaSwag测试中,GLM-4的表现较弱。
多模态能力方面,文生图和多模态理解都得到了增强。不过在现场演示文生图的过程中,GLM-4的精度召回出现故障,无法在多轮对话后按照初始要求重新生成图像。
要做OpenAI最好的学生
只要稍微观察一下,就会发现本次智谱发布的每一款产品,都可以在OpenAI产品线中找到对应的原型。
GLM-4可以看作是弱化版的GPT-4,从官方公布的各项指标对比来看,GLM-4的能力约为GPT-4的80%至90%;
ALL Tools工具集可以看作是在模仿ChatGPT的插件功能,能让GLM模型能力得到增强,例如通过联网插件,GLM就可以访问网络获取最新信息;
多模态大模型CogVLM3可以看作在对标GPT-4V(V即Vision),GPT-4V通过结合DALL·E 3拥有了图像生成能力,而CogVLM3通过将GLM-4与CogView3结合拥有了相似的能力;
GLMs和GLM Store从名字上就可以看出是对GPTs与GPT Store的模仿。
追赶GPT、追赶OpenAI是智谱AI的CEO张鹏经常挂在嘴边的一句话,在2023年11月接受新皮层的专访时,他曾说过「OpenAI走在最前面,我们只能对标它做的事」。目前看来,无论是模型功能还是商业模式,智谱AI都算得上OpenAI「最好的学生」,他们专注于研究OpenAI拥有的「每一项技术」。
点击链接体验智谱大模型
https://www.chatglm.cn/
,
抖音电商2023年GMV增长80%,逼近京东
1月15日抖音电商的官方微博对2023年的业绩做了盘点。过去一年中平台GMV增幅超80%,商城GMV同比增长277%。
根据抖音的统计,平台GMV指的是整个抖音电商通过所有销售渠道实现的商品交易总额,包含了直播、短视频、商城等等。其中商城GMV特指类似天猫、京东那种传统货架场景下产生的商品交易总额,这一类GMV的占比在过去一年中快速增长,目前占平台GMV约30%。
抖音电商每年都会公布增长幅度,但官方并没有透露过GMV的具体数字。有媒体推测,2022年抖音电商的GMV约为1.5万亿元。基于这一数据,预计2023年抖音电商的GMV将达到2.7万亿元,相较之下,京东和拼多多2022年的GMV分别为3.47万亿和3.2万亿。如果抖音电商在2024年继续保持这个增长态势,超越京东与拼多多将成为大概率事件。
参考链接
https://school.jinritemai.com/doudian/web/article/aHztW9TWh3Jv?from=zizhu_weichat_group&continueFlag=1fa066390d47561da18ced2e9e03b3a8
字节发布文生视频模型
近日,字节跳动发布文生视频模型MagicVideo-V2,支持生成4K、8K分辨率,以及不同绘画风格的视频。
MagicVideo-V2是怎么生成视频的?
为了提高生成视频的保真性和流畅性,MagicVideo-V2将生成过程拆分成文本到图像(T2I)、图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)4个模块,并最终整合到一个端到端的流程中。
文本到图像(T2I)
T2I模块将用户的文字提示作为输入,并生成1024×1024分辨率的图像作为参考,用来描述视频内容和美学风格。MagicVideo-V2使用了基于扩散的T2I模型,具有输出高解析度图像的能力。
图像到视频(I2V)
I2V模块以文字提示和生成的图像为条件,生成600×600分辨率的32帧帧序列。该模块应用了图像嵌入模块和潜噪声先验策略来将帧与参考图像对齐,同时降低模型生成的运动清晰度。它还采用了图像-视频联合的训练策略,训练数据来自字节跳动内部的图像和视频数据集,从而避免单一数据类型带来的缺乏多样性问题。
视频到视频(V2V)
V2V模块的设计类似于I2V,但该模块的功能是强化I2V中生成的图像元素,对关键帧做细化和超分辨率处理,将图像增强至1048×1048分辨率,同时细化视频内容。
视频帧插值(VFI)
在VFI模块中,通过对关键帧之间的帧进行插值和平滑视频运动,最终生成1048×1048分辨率的94帧帧率视频。
MagicVideo-V2效果如何?
通过以上端到端的架构设计,MagicVideo-V2能够生成高帧率、高分辨率视频。字节表示,该模型在用户评估中表现超过Gen-2等其他模型。报告中将MagicVideo-V2分别与MoonValley、Pika 1.0、Morph、Gen-2(Runway)、SVD-XT(Stability AI)等文生视频模型横向对比,至少78%的用户认为MagicVideo-V2生成的视频质量不逊于对方。
提示词:一个女孩正在书上写东西,油画风格。
提示词:一只北极熊正在弹吉他。
根据报告中提供的演示案例来看,MagicVideo-V2生成的视频动作幅度更大,看起来也相对流畅自然。但比起其他文生视频模型,MagicVideo-V2的写实内容细节不够丰富,缺少真实的纹理感,因而也有用户表示MagicVideo-V2生成的视频有一种「塑料感」。
在2022年11月,字节跳动曾推出MagicVideo-V1,可以在单个GPU上合成256×256分辨率的视频剪辑,强调了视频生成的高效性。
参考链接
https://magicvideov2.github.io/
新思科技以350亿美元收购软件公司Ansys
1月16日,据路透社消息,新思科技(Synopsys)宣布将以350亿美元的现金加股票交易,收购工业仿真软件公司Ansys,这是去年11月博通以690亿美元收购VMware后工业软件领域最大的一笔收购。
为什么要收购Ansys?
新思科技是一家芯片设计软件制造商,市值约850亿美元。它的主要产品就是芯片设计软件(EDA),客户包括英伟达、AMD、英特尔等等。而Ansys是一家工业仿真软件制造商,市值约300亿美元,其产品用于模拟和预测产品在现实世界中的情况,广泛应用于航空航天、国防、汽车和能源等工业领域。
这笔交易将把新思科技的半导体电子设计自动化工具与Ansys的仿真和分析产品组合结合在一起,从而实现功能整合与互补。新思科技向客户提供可以设计芯片的软件工具,而Anysys的产品作为补充,提供用于生产评估这些芯片的电子系统的模拟环境。
据悉,新思科技和Ansys自2017年起就建立了合作关系,新思科技总裁兼CEO Sassine Ghazi表示,收购Ansys是两家公司合作7年之后「合乎逻辑的下一步」。此外,本次收购将会进一步扩大目标市场,并强化新思科技的财务表现。在收购之后,新思科技的总目标市场(TAM)预计将增长 1.5 倍,达到约280亿美元,并实现约11%的复合年均增长率。
交易可能引发反垄断审查
富国银行的调查指出,此次交易可能会带来监管的不确定性。EDA行业目前主要的参与者为楷登电子(Cadence)、西门子(Mentor)和新思科技3家公司,其中新思科技的市场份额达到了约35%。Ansys并不直接与EDA行业中的巨头竞争,但此次整合必将增强新思科技在核心EDA领域的业务实力,仍然可能会引发反垄断调查,尤其是在中国等关键市场。
根据Ansys官方网站的信息,交易预计于2025年上半年完成,如果在特定情况下(包括反垄断障碍)被取消,新思科技必须向Ansys支付 15 亿美元的终止费。如果Ansys选择结束交易并接受另一个更优秀的提案,则需要向新思科技支付9.5亿美元的「分手费」。
参考链接
https://www.reuters.com/markets/deals/synopsys-finalizes-35-bln-deal-buy-engineering-software-vendor-ansys-source-2024-01-16/
Bonus
150部沉浸式3D电影已登录Vision Pro
今天,苹果官方发文对即将于2月2日上市的Vision Pro头显做了最后的预热。苹果着重强调了Vision Pro的观影体验,用户可以观看来自Apple TV+,以及第三方平台Disney+、ESPN、NBA、Max、Amazon Prime Video等的丰富内容。其中包含《阿凡达:水之道》《沙丘》《蜘蛛侠:平行宇宙》和《超级马力欧兄弟大电影》等150多部3D电影,借助Vision Pro的空间计算能力,用户可以随时随地体验在影院观看3D电影的感受,只要用户此前为这些影片的2D版本付过费,观看3D版本就不需要额外花钱。
同时,开发者也已经可以在Vision Pro的专用应用商店提交应用,苹果表示,这个应用商店将包含超过 100 万款应用以及Apple Arcade 上的 250 多款趣味游戏。
MiniMax上线MoE大语言模型
1月16日,MiniMax发布首个基于专家混合(Mixture-of-Experts,MoE)架构的大语言模型abab6,对标OpenAI的ChatGPT-4。据介绍,abab6在MoE架构下拥有千亿级参数带来的复杂任务处理能力,也提升了计算效率,能够在单位时间内训练足够多的数据,以应对更复杂、对模型输出有更多精细要求的场景。根据公布的测评结果来看,abab6在指令遵从、中文综合能力和英文综合能力上超过了GPT-3.5和Claude 2.1,但在这些测试中都没有达到GPT-4的水平。
在2023年4月,MiniMax发布了开放平台,客户包括金山办公、小红书、腾讯、小米和阅文等多家互联网公司,目前,MiniMax开放平台的日均token处理量达到百亿级。
沃达丰与微软合作开发AI产品与服务
1月16日,英国电信公司沃达丰宣布与微软达成10年战略合作,沃达丰将在合同期内投资15亿美元与微软合作开发AI产品与服务,为欧洲和非洲市场的用户提供生成式AI、数字、企业和云服务。届时,沃达丰将使用Azure云服务取代其物理数据中心,沃达丰管理的物联网平台也将于2024年4月分拆为独立业务,微软会成为该物联网平台的股权投资者。
苹果被要求开放欧盟区App Store侧载功能
据彭博社报道,为遵守欧盟地区即将实施的数字市场法案(DMA),苹果正在拆分欧盟区App Store并开放侧载功能和第三方商店。此事的最后期限是3月7日,届时,苹果会在欧盟区推出一款特殊的App Store。
此外,苹果被要求允许开发者在App Store以外的平台开放服务并使用第三方支付系统购买。此前,如果用户通过苹果自己的支付系统付费,开发者需要支付给苹果15%或30%的佣金。不过,苹果对此回应称,即使开发者选择其他支付方式作为替代,苹果依然会收取12%或27%的佣金,换言之,开发者交给苹果的分成只会减少3%,考虑到第三方支付系统也要抽成,最后折算下来,开发者很可能反而要掏更多的钱。
Google广告销售部门裁员数百人
1月17日,Google宣布将重组广告销售部门,裁撤数百个岗位。这是Google重组计划的一部分,旨在提升公司的利润率,并应对与OpenAI的竞争中人工智能人才的较高薪酬,有消息称Google正在利用一个特别的股票薪酬池来留住顶尖的人工智能研究人员。此前,OpenAI通过提供数百万美元的薪酬方案,已经从Google的Gemini项目中招募了至少两位领导者。
Google表示,此次裁员将主要影响大客户广告销售团队。此外,Google计划加大对专注于服务较小客户的客户解决方案部门的投资。本轮裁员Google是继上周在多个部门裁掉1000多人之后的又一轮裁员。
马斯克寻求对特斯拉25%的控制权
马斯克在社交平台X(原Twitter)发文称对当前仅持有13%特斯拉股份相当不满。他表示,如果他不被授予更多控制权,他将在特斯拉人工智能和机器人技术方面的发展上采取消极态度,并「宁可在特斯拉外打造(AI)产品」。马斯克表达了对「自己被架空」的担忧,「15%或更低的赞成票/反对票比例就可以推翻我,这令公司很容易被可疑利益集团收购」。
马斯克此番言论可以视为对股东的施压。目前部分股东正在起诉马斯克,因为马斯克曾批准了一笔他本人的巨额薪酬方案。根据该薪酬方案,马斯克将分批获得特斯拉的期权,其中最后一笔期权还没有完成交付,如果交付完毕,马斯克在特斯拉的股权比例将上涨至20.6%。
-END-